УДК 004.8:004.93 


Н.А. Костромов, И.В. Бекетова, С.Л. Каратеев 

ФГУП «Государственный научно-исследовательский институт 
авиационных систем», г. Москва, Россия 

Россия, 125319, г. Москва, ул. Викторенко, 7 


Формирование пространства признаков 
и их извлечение из изображений 
для систем индексации документов 


№.А. Коятготоу, 1.У.Векегота, 5.Г.. Кагиееу 
Тре Еедега 5кие Опйагу Ещегризе “Эшие Кезеагсй тяише оГАтайноп эуЯетб”, 


с. Мо5соу, Кизяа 
Виуяа, 125319, Мобсом’, УщютгепКо зтееь 7. 


Коттапоп о] Ееашге эрасеу ап 1йет ЕхтгасНоп 
гот Фе [тазе; Дог Роситет5 таехте 


Н.А. Костромов, [.В. Бекетова, С.Л. Каратеев 

ФГУП «Державний науково-досл1дний 1нститут ав1ащйних систем», 
Росля, м. Москва 

Росля, 125319, м. Москва, вул. Викторенко, 7 


Формування простору ознак 11х добування 
13 зображень для систем 1ндексаци документв 


Предложены оригинальные алгоритмы анализа изображения для формирования вектора признаков. 
Вектор признаков сформирован из геометрических признаков и составленных на основе системы правил 
комбинированных признаков. Вектор признаков используется для поиска областей со специфической 
графической информацией на изображениях документов. Моделирование на тестовой выборке изображений 
документов показало устойчивость и эффективность работы алгоритмов. 

Ключевые слова: индексация, излечение признаков, машинное обучение 
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Введение 


При использовании систем автоматического анализа документов возникают за- 
дачи обнаружения документов, содержащих специфическую графическую информа- 
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цию. Существует ряд документов, в которых содержание подкрепляется наглядными 
образами при помощи графических моделей в форме структурных схем или блок- 
схем. Сложность задачи обнаружения подобных документов состоит в том, что в 
отличие от изображений таблиц или других стандартных форм изображения гра- 
фических моделей рассматриваемого типа, как правило, не имеют стандартной стру- 
ктуры, специфических ключевых слов, символов и графических объектов, по которым 
можно определить, что данное графическое изображение является структурной схемой 
или блок-схемой. 

Структурные схемы и блок-схемы отличаются широким разнообразием состава 
и параметров отображающих их геометрических объектов — геометрических фигур, 
линий и графических символов. Примеры изображений документов, содержащих 
блок-схемы и структурные схемы, приведены на рис. 1. 
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Рисунок 1 — Примеры изображений документов, 
содержащих блок-схемы и структурные схемы 


Важно определить наиболее существенные признаки рассматриваемой графи- 
ческой модели. Данная графическая модель строится при помощи ограниченного 
набора графических элементов (линии, прямоугольники, ромбы, овалы и т.д.), часто 
дополняемых короткими текстовыми строками или отдельными графическими симво- 
лами. Часто изображения содержат шумы и искажения, вызванные процессами получе- 
ния изображений (сканирование, видеосъёмка) и сжатия полученных изображений. 

Достаточно полный обзор современных методов анализа структуры документов 
приведён в [1], [2]. Методы, используемые для обнаружения изображений графиче- 
ских объектов, можно разделить на три основные категории: 

— обнаружение на основе априорной информации о структуре; 

— эвристические методы; 

— статистические или оптимизационные методы. 

Для методов обнаружения на основе априорной информации, как правило, харак- 
терны удовлетворительные показатели обнаружения, однако обобщающие способности 
методов данного типа ограничены. 
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Эвристические алгоритмы используют заранее определённые наборы логических 
или предварительно определенных синтаксических правил для получения решения 
об обнаружении. Наборы эвристических правил обычно строятся на базе системы 
локальных признаков. Использование эвристик нередко требует сложной пост-обра- 
ботки для окончательного принятия решений. 

Статистические или оптимизационные алгоритмы, как правило, обходятся без 
априорной информации или используют свободные параметры, значения которых 
формируются в процессе обучения [3], [4]. 


Структура алгоритма 


Общая структура алгоритмов представлена на рис. 2. Таким образом, выделение 
признаков можно разделить на следующие этапы: 

1) выделение текста в документе; 

2) создание бинарного препарата документа; 

3) выделение признаков; 

4) генерация пространства признаков. 

Остановимся подробнее на каждом из этапов. 
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Формирование вектора вторичных признаков, на основе 
сгенерированных областей и логического анализа 
первичных признаков, с экспортов данных в файл 


Алгоритм классификации на основе 
методов машинного обучения 


Рисунок 2 — Общая схема формирования вектора 
вторичных признаков для индексации документа 
На первом этапе происходит выделение областей (маски) текста на изображении. 
Выделение текстовых строк и формирование маски текста на изображении выполня- 
ется путем классификации скользящим окном на основе разработанного авторами 
оригинального алгоритма адаптивного бустинга. 
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На втором этапе происходит бинаризация изображения (рис. 3). Перед бинари- 
зацией изображение преобразуется в оттенки серого. Затем по всему изображению 
проходит окно (ядро низкочастотного фильтра), после чего из усредненных соответ- 
ствующих пикселей вычитаются значения соответствующих пикселей исходного 
изображения (1). Если их разница отрицательна, то значение пикселя считается рав- 
ным 0, иначе пиксель принимает значение, получившееся при вычитании (2). Затем 
выбирается порог бинаризации. В качестве порога бинаризации может использоваться 
комбинированный порог: 


(ху) =>. >. 6, )Их+Ьу+Л-Цх,у) @ 


. Г'(х, у), если Г'(х, у) > 0 
Их, у) = | (2) 
0, если Г'(х, у) <0 


1, если ["(х,у)>1Т 
То (х, У) -= " (3) 
0, если 1"(х, у) < [, 
где Г-— изображение в оттенках серого, Г/(х, у) — пиксель изображения, М — 
размер ядра свертки, С. — ядро свертки фильтра, [,, (х, у) — бинаризованный пиксель, 


1, — порог бинаризации. 
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Рисунок 3 — Изображение до и после бинаризации 


В результате должно получиться черно-белое изображение, как показано на 
рис. 3. Постобработка бинарного препарата включает в себя удаление отдельных 
точек и операции морфологического утоньшения. Далее возможно удаление областей 
изображения с выделенным на первом этапе текстом. 

На третьем этапе происходит выделение признаков, сначала простых (рис. 4), а 
затем на их основе объединение в комбинированные признаки — прямоугольники и 
связи между ними (рис. 5). Простые геометрические признаки представляют собой 
горизонтальные и вертикальные линии. Эти линии обладают следующими атрибутами: 
длина, стиль (гладкая, штрихпунктирная), связность с другими линиями (пересечение 
или соединение). Линии обнаруживаются путем перебора пикселей по горизонтали 
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для горизонтальных линий и пикселей по вертикали для вертикальных линий. Алго- 
ритм анализирует линию на стиль начертания — гладкий ИЛИ штрихпунктирный. Псевдо- 
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Рисунок 4 — Изображения с обнаруженными линиями 


ргоседиге де лпеРготтаее( 
ппеВш2 14]: Пиезег; //Массив пикселей бинаризированного изображения 
У! ть,Ниве: Пиесег; /ЛШирина и высота изображения в пикселях 
ТГлпеГ 15: [4$6; /Список горизонтальных линий 
Бош: Гесег; // Минимальная длина линии 
Б5рап: Пцезет; // Промежуток между линиями 
Бтлах: Пиесег; // Максимальная длина линии 
ГлпеСо]ог: Пиесег; // Цвет линии 
ГЛепзиу: РоцЫе; // Плотность линии 
Раз епе@: Пиесег); // Длина штриха 
{ 
//Выделение горизонтальных линий 
//Минимальная длина 
Пиш := Шиш; 
//Максимальная длина 
Плах := Ытах; 
//Максимальные промежутки между соседними пикселями линии 
15рап:= В5рап; 
//Цикл обработки по строкам для горизонтальных линий 
Рог 1 := 0 То Ни, - 1 Бо 
{ 
//Сбросить счетчики 
Сеп := 0; сдеп := 0; сзеа := 0; сетр := 0; сад4 := 0; 
риТлпе^. 5 УеОга\м := 14$ оП9; 
риТлпе^.5УеСгоз$ := 15сМоп; 
риТлпте^.5УеОпещайоп := 15опсПпеа; 
риТлпе^.ОзеРогВесе := Ёа|5е; 
риТлпе^.СоииЕСго$$ := 0; 
риТлте^.ГлиеГепой := 0; 
сзрап := 0; 
//Инициализируем прямую как "несуществующую 
риТалпе^.Глпе.Гей := -1; 
риТлпе^.Глпе.Вле := -1; 
риТлте^.Глпе.Тор := 1; 
риТлпе^.Глие.Во(от := 1; 


" 
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риТалпе^.5у]еОпещаноп := 1зоНопхоша[; 

Бог } := 0 То Уи, - 1 Бо 

{ 
//Увеличиваем счетчик длины линии 
Шпс(<еп); 
//Если пиксель совпадает с цветом линии 
Што Вт2 11: ] = ГлоеСо]ог) 


//Увеличиваем счетчик промежутков между кусками линии 
Шсзрап > 0) 


с(с4еп); 
сада > Раз БГ еп )Твеп 
сзеа := РазСепей; 
епа; 
с(саа9); 
//Увеличиваем счетчик совпадающих пикселей линии 
Гос(сзеа); 
// Если это первый совпавший пиксель, 
// то инициализируем начальную точку 
ШК(фиТлте^.Глпе.Гей = -Г)Апа(сзеа > Раз Г епэ)) 
{ 
Сеп := 0; 
сетр := 0; 
риТлпе^.Глпе.Гей := } - РазВГеп>й; 
} 
//Т.к. совпал цвет линии, то присваиваем крайнее положение справа 
Шсзеа > РазВГеп® 1) 
{ 
риТлпе^.Глпе. Каз? :=] + 1; 
//свапзе 
сзрап := 0; 
} 
//Т.к. цвет линии совпадает, то обнуляем счетчик "пустоты" 
//сзрап := 0; 
} 
//Цвет линии не совпадает 
е]зе 


{ 


//Увеличиваем счетчик пустого пространства между отрезками линии 


Гпс(сзрап); 

Шшпс(сетр); 

Шсзрап > Раз Геп2) 
сад 4 := 0; 


} 


//Если промежуток между соседними точками больше разрешенного промежутка 
сзрап >= 15рап) 


// Проверяем не является ли линия пустой 
(рыТапе^.Тлпе.Гей <> -П)Апа(риТлпе^.Глпе. Клюв: <> -1)) 


// Задаем ориентацию линии горизонтальной 
риТлпе^.5${уеОпещайоп := 15оНопхоша[; 
// Проверяем линию на допустимость значений и 
// проверяем тип начертания гладкая или штрихпунктирная 
ШСБесКТлпе(рыТ лпе, [ОепзКу)) 
{ 
// Добавляем линию 
ГлиеГ 1$. АЧа(риТлпе); 
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// Создаем новую линию 

Ме\м(риТлте); 
} 
// Сбрасываем счетчики, т.к. превышено значение 
// пустоты между отрезками линии 
Сеп := 0; саеп := 0; сзеа := 0; сетр := 0; садА := 0; 
риТапе^.5(УеОга\м := 1453 опа; 
риТапе^.5(УеСгоз$ := 1$сМ оп; 
риТапе^.5{уеОпещайоп := 150 спе; 
риТапе^.ОзеРогКес+ := Рае; 
риТапе^.Сочи(Сго$$ := 0; 
риТапе^.ГлпеГепой := 0; 
//Инициализируем прямую как "несуществующую" 
риТапе^.Глие.Гей := -1; 
риТапе^.Глие. Вале := -1; 
риТапе^.Глпе.Тор := 1; 
риТапе^.Глие.Во{от := 1; 


} 


// Проверяем линию на допустимость значений и 
// проверяем тип начертания (гладкая или штрихпунктирная линия) 
СБесКТлпе(рыТ лпе, ГОепзКу)) 


{ 
// Добавляем линию 
ГлпеГ 15. АЗа(риТапе); 
// Создаем новую линию 
Ме\з(риТапе); 

} 


Листинг 1 — Псевдокод нахождения 
горизонтальных линий в бинарном изображении 
Далее эти линии вместе с маской текста образуют более сложные признаки. 
Выделяются прямоугольники из найденных линий, определяется включение в прямо- 
угольниках других линий, других прямоугольников, текста, наличие и количество 
связей с другими прямоугольниками или линиями. 
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Рисунок 5 — Изображение с обнаруженными линиями и прямоугольниками 


«Штучний 1нтелект» 32012 157 


ЗК Костромов Н.А., Бекетова И.В., Каратеев С.Л. 


На четвертом этапе на основе полученных признаков происходит генерация 
системы признаков, на основе этих данных система обучается и принимает решения 
о наличии и месте расположения схем. Система признаков представляет собой общие 
данные и набор областей с единой структурой признаков. Например, изображение 
делится на сетку размером 4 на 4, тогда области, к примеру, имеют следующие раз- 
меры: 2х2, 2х3, 3х2, 3х3, 4х4 ячейки. Самой большой по размерам областью является 
все изображение. Пример псевдокода для генерации приведен в листинге 2. 


уо1А ОСепегмеКес() 

{ 

СеПСоцпц := 4; // Количество ячеек по оси х 

Се|Соипи, := 4; // Количество ячеек по оси у 

Егатени, := 2; // Минимальный размер области в единицах сетки 
Егатетах := Мах(Се|Соитх, СеЙСоипбу); //Максимальный размер области в единицах сетки 
\УУсеи := Сей( У!» / Се!Соии); // Вычисление ширины ячейки в пикселях 
Нсен := Се Ни»/ Се!Соипь,); // Вычисление ширины ячейки в пикселях 
Еог и := Егате Го Егатен.х Оо 

{ 

Рог |] := Егатен Го Егатез„х Оо 

{ 

Вог 1 := 0 То (СеЙСоипь, - п) о 

{ 

Рог ] := 0 То (СеПСоцпк - 1) Ро 

{ 


Весг := пе\ ВКеск0,0,0,0); // Создание области с нулевыми координатами и размерами 


Вес.Гей :=1* У/са // Вычисление левой границы области 
Вес. В лю := Весе.Гей + ]] * Усе; // Вычисление правого угла области 
Вес(.Тор := } * Нсеи; // Вычисление верхней границы области 


Вес.Воцот := Весё.Тор + п * Нси.//Вычисление нижней границы области 
Га$(ОЕЕгате. АаЧ(Вес0; —// Добавление области в список просматриваемых областей 


Листинг 2 — Псевдокод генерации областей 
для последующего создания структуры признаков 

Таким образом, все элементы признаков, которые будут включаться в сгенери- 
рованную область изображения, будут учитываться при вычислении признаков дан- 
ной области. 

Вектор признаков полного изображения включает в себя: 

— количество прямоугольников; 

— количество прямоугольников с текстом; 

— количество линий в прямоугольниках; 

— гистограмма длин горизонтальных и вертикальных линий (раздельно штрих- 
пунктирные и гладкие), нормализованные под размер изображения. 

Вектор признаков для анализируемых фрагментов изображения состоит из сле- 
дующих элементов: 

1. Координаты прямоугольной области. 

2. Гистограмма длин горизонтальных и вертикальных линий (штрихпунктирные 
и гладкие), нормализованных на максимальный размер данной области. 

3. Количество всех прямоугольников, включенных в эту прямоугольную область. 

4. Количество прямоугольников, включенных в эту область, которые имеют текст. 

5. Количество горизонтальных линий в прямоугольниках, включенных в данную 
область. 
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Формирование пространства признаков и их извлечение из изображений... 


6. Количество полусвязных линий (линия имеет соединение с прямоугольником, 
только с одной стороны). 

7. Количество полусвязанных прямоугольников (прямоугольник связан только 
с линией, но не с другими прямоугольниками). 

8. Количество полносвязных линий (линии, которые своими концами соединены 
с прямоугольниками) 

9. Количество полносвязных прямоугольников (прямоугольники, которые свя- 
заны друг с другом линией) 

10. Количество прямоугольников внутри области и для каждого следующего 
признака: 

а) количество всех линий этого прямоугольника, 

6) количество всех горизонтальных линий, 

в) наличие текста, 

г) нормализованная площадь к площади области, 

д) соотношение ширины к высоте. 


Выводы 


Для оценки эффективности предложенного метода было проведено моделиро- 
вание работы оригинального классификатора на базе изображений документов. База 
изображений документов была разбита на две части: обучающую выборку и тестовую 
выборку. Обучающая база изображений образована из 600 изображений (300 — из 
положительных и 300 — из отрицательных примеров). Тестовая база изображений 
образована из 300 изображений (150 — из положительных и 150 — из отрицательных 
примеров). 


Усила Мои 
0 


Риго 9. Те АдаВооя.МТ аогАнт. 


32 — ЕЕЕСВОАТЕ АНО УСТЬЕ МАбАЕМЕ 


При моделировании на тестовой выборке изображений документов алгоритм 
обнаружения специфической графической информации показал устойчивость и эффек- 
тивность работы. Получены следующие характеристики классификатора: 

— вероятность правильной классификации (по тестовой выборке положительных 
примеров) составляет: 0.91; 
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— вероятность ложноположительной классификации (по тестовой выборке отри- 
цательных примеров) составляет: 0.056. 

Примеры работы алгоритма обнаружения специфической графической инфор- 
мации показаны на рис. 6, где рамками выделены области изображений документов, 
классифицированные как содержащие блок-схемы. 

В качестве дальнейшего направления развития предполагается адаптация алго- 
ритма к условиям работы с зашумлёнными изображениями, содержащими искажения. 
Для этого необходимо произвести соответствующие доработки алгоритмов бинари- 
зации, выделения первичных признаков и формирования сложных признаков. 
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